1.7メモ scikit-learnの機械学習アルゴリズムの要点
アイリスデータセット
多クラス分類(3クラス)
個々のアイテムをサンプルと呼び、その特性を特徴量と呼ぶ (1.7.1)
クラスとラベル
クラス:分類結果
ラベル:個々のアイリスの品種
→ マルチラベルは個々が複数取る
データを見て、機械学習で解けそうか判断
例:ペアプロット
scikit-learnの機械学習アルゴリズム = Estimator
カプセル化
訓練データからモデルを構築する際に用いられるアルゴリズム (1.7.4)
新しいデータポイントに対して予測するためのアルゴリズム (1.7.4)
訓練データからアルゴリズムが抽出した情報 (1.7.4)
デフォルトではテストセットは25%
データはX
2次元配列(行列)→ 大文字
ラベルはy
1次元配列(ベクトル)→ 小文字
fit
訓練セットを使ってモデルを訓練
fitはEstimatorそのものを返すとともに、Estimatorそのものを置き換える(!? どんな実装?)
score
テストセットを使ってモデルを評価
知りたいのは汎化性能
predict
2次のNumPy配列で入力(例:1 × 4)
サンプル数 × 特徴量の数